Nota inicial

Para a resolução dos exercícios, foram utilizados os pacotes ggplot2 (para construção de gráficos) e knitr (para utilização da função kable()).

Capítulo 2

Questão 9

Identif <- c("Qualitativa Ordinal",
             "Qualitativa Nominal",
             "Quantitativa Contínua")
Variav <- c(
  "Seção",
  "Administr.",
  "Direito",
  "Redação",
  "Estatíst.",
  "Inglês",
  "Metodologia",
  "Política",
  "Economia"
)
Classif <-
  data.frame(
    Variáveis = Variav,
    Classificação = Identif[c(2, 3, 3, 3, 3, 1, 1, 3, 3)],
    stringsAsFactors = FALSE
  )
kable(Classif, format = "markdown")
Variáveis Classificação
Seção Qualitativa Nominal
Administr. Quantitativa Contínua
Direito Quantitativa Contínua
Redação Quantitativa Contínua
Estatíst. Quantitativa Contínua
Inglês Qualitativa Ordinal
Metodologia Qualitativa Ordinal
Política Quantitativa Contínua
Economia Quantitativa Contínua

  • Analisando o Gráfico das Frequências das Notas por curso, percebemos que as notas de \(Direito\) não variam, permanecendo no 9. Já as de \(Política\) variam pouco, e acima de 6; e as de \(Estatística\) estão mais distribuídas pelo gráfico, indo desde a menor nota observada entre os três cursos, 4, e obtendo 3 vezes a nota máxima, 10.
Direito <- rep(9, 25)
Politica <-
  c(9, 6.5, 9, 6, 6.5, 6.5, 9, 6, 10, 9, 10, 6.5, 
    6, 10, 10, 9, 10, 6, 6, 6, 6.5, 6, 9, 6.5, 9)
Estatist <-
  c(9,  9,  8,  8, 9,   10, 8,  8,  9,  8,  10, 7,  
    7,  9,  9,  7, 8,   9,  4,  7,  7,  8,  10, 9,  9)

Notas <-
  data.frame(
    "Faixa_de_Notas" = c(
      "Entre 4 e 5",
      "Entre 5 e 6",
      "Entre 6 e 7",
      "Entre 7 e 8",
      "Entre 8 e 9",
      "Entre 9 e 10",
      "Igual a 10"
    ),
    "Direito" = c(
      length(Direito[Direito == 4]),
      length(Direito[Direito == 5]),
      length(Direito[Direito == 6]),
      length(Direito[Direito == 7]),
      length(Direito[Direito == 8]),
      length(Direito[Direito == 9]),
      length(Direito[Direito == 10])
    ),
    "Estatística" = c(
      length(Estatist[Estatist == 4]),
      length(Estatist[Estatist == 5]),
      length(Estatist[Estatist == 6]),
      length(Estatist[Estatist == 7]),
      length(Estatist[Estatist == 8]),
      length(Estatist[Estatist == 9]),
      length(Estatist[Estatist == 10])
    ),
    "Política" = c(
      length(Politica[Politica == 4]),
      length(Politica[Politica == 5]),
      length(Politica[Politica == 6]) + length(Politica[Politica == 6.5]),
      length(Politica[Politica == 7]),
      length(Politica[Politica == 8]),
      length(Politica[Politica == 9]),
      length(Politica[Politica == 10])
    ),
    stringsAsFactors = FALSE
  )
#Frequência de Notas por curso:
kable(Notas, format = "markdown")
Faixa_de_Notas Direito Estatística Política
Entre 4 e 5 0 1 0
Entre 5 e 6 0 0 0
Entre 6 e 7 0 0 13
Entre 7 e 8 0 5 0
Entre 8 e 9 0 7 0
Entre 9 e 10 25 9 7
Igual a 10 0 3 5
Frequencia <- c(1, 5, 7, 9, 3, 13, 7, 5, 25)
Estat <- c(4.85, 7.85, 8.85, 9.85, 10.85)
Polit <- c(6.5, 9.5, 10.5)
Direit <- c(9.15)
Variavs <- c(Estat, Polit, Direit)
Leg <- c(rep("Estatística", 5), rep("Política", 3), "Direito")

ggplot(data = NULL, aes(x = Variavs, 
                        y = Frequencia, 
                        
                        fill = Leg)) +
  geom_bar(
    col = "navy",
    stat = "identity",
    position = "identity",
    orientation = Variavs
  )  +
  scale_x_continuous(breaks = seq(5, 11), 
                     limits = c(4.7, 11)) +
  scale_y_continuous(breaks = c(seq(0, 21, 3), 25)) +
  geom_text(aes(label = Frequencia), 
            vjust = -0.3, 
            size = 3.5) +
  theme(
    panel.background = element_rect(fill = "white"),
    panel.grid.major.x = element_line(colour = "gray50" , 
                                      linetype = "dashed"),
    panel.grid.major.y = element_line(colour = "powderblue" , 
                                      linetype = "longdash")
  ) +
  labs(title = "Gráfico das Frequências das Notas por curso",
       x = "Notas",
       y = "Frequência",
       fill = "Curso")

Reda <- data.frame("Redação" = c(
  8.6, 7, 8, 8.6, 8, 8.5, 8.2, 7.5, 9.4, 7.9, 
  8.6, 8.3, 7, 8.6, 8.6, 9.5, 6.3, 7.6, 6.8, 
  7.5, 7.7, 8.7, 7.3, 8.5, 7))
kable(Reda, align = 'c')
Redação
8.6
7.0
8.0
8.6
8.0
8.5
8.2
7.5
9.4
7.9
8.6
8.3
7.0
8.6
8.6
9.5
6.3
7.6
6.8
7.5
7.7
8.7
7.3
8.5
7.0
ggplot(data = Reda, aes(Redação)) + 
  geom_histogram(fill = "limegreen",
                 col = "navy",
                 breaks = seq(6.3,9.5, 0.8)) + 
  theme_classic() + 
  labs(title = "Histograma para as notas da variável Redação", 
       x = "Notas", 
       y = "Frequência")

kable(data.frame("Funcionário" = seq(1,25,1), 
                 "Metodologia" = c(
                   "A", "C", "B", "C", "A", "A", "C", "C", "B", "C", 
                   "B", "B", "C", "B", "B", "A", "C", "C", "C", "B", 
                   "B", "A", "C", "A", "A"), 
                 stringsAsFactors = FALSE), 
                 align = 'cc')
Funcionário Metodologia
1 A
2 C
3 B
4 C
5 A
6 A
7 C
8 C
9 B
10 C
11 B
12 B
13 C
14 B
15 B
16 A
17 C
18 C
19 C
20 B
21 B
22 A
23 C
24 A
25 A
Metodol <- c("A", "C", "B", "C", "A", "A", "C", 
"C", "B", "C", "B", "B", "C", "B", "B", "A", "C", 
"C", "C", "B", "B", "A", "C", "A", "A")

Frequencia_ni <-
  c(length(Metodol[Metodol == "A"]), 
    length(Metodol[Metodol == "B"]), 
    length(Metodol[Metodol =="C"]))

Frequencia_fi <- Frequencia_ni / length(Metodol)
Porcentagem_100fi <- Frequencia_fi * 100
Distr <-
  matrix(
    c(Frequencia_ni, Frequencia_fi, Porcentagem_100fi),
    nrow = 3,
    ncol = 3,
    dimnames = list(
      c("A", "B", "C"),
      c("Frequência ni", "Frequência fi", "Porcentagem 100fi")
    )
  )
Distr <- rbind(Distr, colSums(Distr[, 1:3]))
row.names(Distr)[4] <- "Total"
#Distribuição de Frequências
kable(Distr, format = "markdown", align = 'c')
Frequência ni Frequência fi Porcentagem 100fi
A 7 0.28 28
B 8 0.32 32
C 10 0.40 40
Total 25 1.00 100
ggplot(data = NULL, 
       aes(x=c("A", "B", "C"), 
           y = Frequencia_ni)) + 
  geom_bar(fill = "purple4",
           stat = "identity") + 
  labs(title = "Distribuição da variável Metodologia", 
       x= "Metodologia", 
       y = "Frequência ni")+ 
  geom_text(aes(label=Frequencia_ni), 
            vjust=-0.3, 
            size=3.5) +
  theme_classic()

#Resposta
  • Temos, ao todo, 7 funcionários que obtiveram grau \(A\) em um universo de \(25\) funcionários. Portanto, a probabilidade é de \(\dfrac{7}{25}=0,28\) ou \(28\%\).

#Resposta
  • Menor, pois a probabilidade seria \(\dfrac{7}{25}\cdot\dfrac{6}{24}=\dfrac{42}{600}=\dfrac{21}{300}=\dfrac{7}{100}=0,07\) ou \(7\%\)

  • Na seção \(P\) temos média:
Estatist <- c(9,9,  8,  8,  9,  10, 8,  8,  9,  
              8,    10, 7,  7,  9,  9,  7,  8,  9,  
              4,    7,  7,  8,  10, 9,  9)
mean(Estatist[1:7])
## [1] 8.714286
  • Para a seção \(T\), temos média:
mean(Estatist[8:14])
## [1] 8.285714
  • Já para a seção \(V\), temos média:
mean(Estatist[15:25])
## [1] 7.909091
#Resposta
  • Logo, o aproveitamento da seção \(P> T> V\).

Capítulo 3

Questão 32

Cidade <- c("A", "B", "C", "D", "E", "F", "G", "H", "I", "J")
Invest <- c(20, 16, 14, 8, 19, 15, 14, 16, 19, 18)
Valores_Obtidos <- matrix(c(Invest), 
                          nrow = 1, 
                          ncol = 10, 
                          byrow = TRUE, 
                          dimnames = list("Investimento", Cidade))
#Valores obtidos

kable(Valores_Obtidos, format = "markdown")
A B C D E F G H I J
Investimento 20 16 14 8 19 15 14 16 19 18
#Média inicial
M_Inicial <- mean(Valores_Obtidos)
M_Inicial
## [1] 15.9
#Desvio Padrão (Populacional), foi preciso fazer algumas alteraçações pelo
#fato de a função calcular o desvio amostral.
Desv.Pad <- sd(Valores_Obtidos)*((length(Valores_Obtidos)-1)/length(Valores_Obtidos))^(1/2)
Desv.Pad
## [1] 3.330165
#Agora, vamos pegar os valores menos os que são maiores que a média mais
#duas vezes o desvio padrão:
Abaixo <- Valores_Obtidos[Valores_Obtidos<=(M_Inicial+2*Desv.Pad)]
Abaixo
##  [1] 20 16 14  8 19 15 14 16 19 18
#E os valores que são maiores que a média menos duas vezes o desvio padrão:
Acima <- Valores_Obtidos[Valores_Obtidos>=(M_Inicial-2*Desv.Pad)]
Acima
## [1] 20 16 14 19 15 14 16 19 18
#E, por fim, teremos como novo conjunto os valores que estão tanto em
#"Acima" quanto em "Abaixo" desses dois conjutos obtidos, e assim tiramos a média:
Novo_Conj <- Acima[Acima %in% Abaixo]
Novo_Conj
## [1] 20 16 14 19 15 14 16 19 18
mean(Novo_Conj)
## [1] 16.77778

Questão 37

#Resposta
  • Essa nota padronizada \(Z\) pode ser interpretada como uma medida de distância em relação à nota média do grupo ao qual o aluno pertence, ou seja, serve para observar se determinado aluno obteve nota próxima ou distante da nota média da turma.

\[Z=\dfrac{X-\bar{x}}{dp(X)}.\]

Media_Est <-  mean(Estatist)
Media_Est
## [1] 8.24
#A fim de obter o Desvio Padrão Populacional, pelo fato de a função "sd" do
#R calcular o Desvio Padrão Amostral, isto é, baseado no calculo da
#variância levando em conta "n-1" observações, foi preciso multiplicar
#o Desvio pela raiz quadrada de "n-1/n" observações:
dp_Est <- sd(Estatist)*((length(Estatist)-1)/length(Estatist))^(1/2)
dp_Est
## [1] 1.273735
Notas_Padr <- (Estatist - Media_Est)/dp_Est
Notas_Padr <- round(Notas_Padr, digits = 2)
Notas_Padr <- matrix(data = Notas_Padr, 
                     ncol = 1, 
                     nrow = 25, 
                     dimnames = list(seq(1,25,1), 
                                     "Estatística"))
Notas_Padr
##    Estatística
## 1         0.60
## 2         0.60
## 3        -0.19
## 4        -0.19
## 5         0.60
## 6         1.38
## 7        -0.19
## 8        -0.19
## 9         0.60
## 10       -0.19
## 11        1.38
## 12       -0.97
## 13       -0.97
## 14        0.60
## 15        0.60
## 16       -0.97
## 17       -0.19
## 18        0.60
## 19       -3.33
## 20       -0.97
## 21       -0.97
## 22       -0.19
## 23        1.38
## 24        0.60
## 25        0.60

#Temos como média das notas padronizadas:
mean(Notas_Padr)
## [1] 0.0012
#E como  Desvio Padrão (Populacional):
dp_z <- sd(Notas_Padr)*((length(Notas_Padr)-1)/length(Notas_Padr))^(1/2)
dp_z
## [1] 0.9999853

#Para notas acima de 2dp(Z), não temos nenhuma ocorrência:
Notas_Padr[Notas_Padr>(2*dp_z)]
## numeric(0)
#Já para valores abaixo de -2dp(Z), obtemos uma nota:
sub_2dp_z <- Notas_Padr[Notas_Padr<(-(2*dp_z))]
sub_2dp_z
## [1] -3.33
#E podemos observar que se refere ao funcionário 19:
row.names(Notas_Padr)[Notas_Padr[,1]==sub_2dp_z]
## [1] "19"

  • Como o funcionário obteve notas iguais, vamos analisar o seu desempenho em relação às médias de cada curso, ou seja, utilizando a nota padronizada \(Z\) de desempenho relativo.
#Em Direito:
#Como todas as notas em direito foram iguais a 9, a média será nove, e não vai haver desvio. 
#Portanto, chegaremos em 9-9/0 = 0/0.

#Em Estatística:
#Já foi calculado no item (b) e é igual a:
Notas_Padr[1,]
## [1] 0.6
#Em Política
(9 - mean(Politica))/sd(Politica)*((length(Politica)-1)/length(Politica))^(1/2)
## [1] 0.7268272
  • Então, temos que \(0<0,6<0,72\)\(\iff\)\(Direito< Estatística< Política\). Portanto, o desempenho relativo do funcionário \({\bf1}\) foi melhor em Política.

Capítulo 4

Questão 19

A_Favor <- c(30, 35, 35)
Contra <- c(60, 25, 15)
Total_C <- A_Favor + Contra
Amostra <- matrix(data = c(A_Favor, Contra, Total_C), 
                  nrow = 3, 
                  ncol = 3, 
                  byrow = TRUE, 
                  dimnames = list(c("A Favor", "Contra", "Total"), 
                                  c("Urbano", "Suburbano", "Rural")))

Amostra <- cbind(Amostra, rowSums(Amostra[1:3,]))
colnames(Amostra)[4] <- "Total"
kable(Amostra, format = "markdown", align = 'ccccc')
Urbano Suburbano Rural Total
A Favor 30 35 35 100
Contra 60 25 15 100
Total 90 60 50 200
Propor <- matrix(data = c(Amostra[1,]/Amostra[3,], 
                          Amostra[2,]/Amostra[3,],
                          Amostra[3,]/Amostra[3,]), 
                 nrow = 3, 
                 ncol = 4, 
                 byrow = TRUE, 
                 dimnames = list(c("A Favor", "Contra", "Total"),
                                 c("Urbano", 
                                   "Suburbano", 
                                   "Rural", 
                                   "Total")))

#Proporções em relação ao total das colunas:
kable(Propor, format = "markdown", align = 'c')
Urbano Suburbano Rural Total
A Favor 0.3333333 0.5833333 0.7 0.5
Contra 0.6666667 0.4166667 0.3 0.5
Total 1.0000000 1.0000000 1.0 1.0

#Resposta
  • A opinião parece ter uma relação de dependência com o local de residência, já que os valores dos totais das linhas não se repetem no interior da tabela.

  • Calcularemos o \(\chi^2\): \[\chi^2 = \sum{\dfrac{(o_i-e_i)^2}{e_i}}\] \[o_i = valor \hspace{0,17cm} observado;\hspace{0,17cm} e_i = valor \hspace{0,17cm} esperado;\]
#Obtemos como resutado:
chisq.test(Amostra)
## 
##  Pearson's Chi-squared test
## 
## data:  Amostra
## X-squared = 19.667, df = 6, p-value = 0.003174

Questão 20

Estat <- c(5, 141, 51, 197)
Partic <- c(92, 231, 48, 371)
Total_C <- Estat + Partic
Ativid <- matrix(data = c(Estat, Partic, Total_C), 
                 nrow = 3, 
                 ncol = 4, 
                 byrow = TRUE, 
                 dimnames = list(c("Estatal", "Particular", "Total"),
                                 c("Costeira", "Fluvial", 
                                   "Internacional", "Total")))
kable(Ativid, align = 'c')
Costeira Fluvial Internacional Total
Estatal 5 141 51 197
Particular 92 231 48 371
Total 97 372 99 568
  • Pode-se perceber, a partir da análise do \(\chi^2\), que parece existir associação entre o tipo de atividade e o tipo de propriedade.
chisq.test(Ativid)
## 
##  Pearson's Chi-squared test
## 
## data:  Ativid
## X-squared = 51.418, df = 6, p-value = 2.441e-09

Questão 22

Sim <- c(200, 220, 380, 800)
Nao <- c(200, 280, 720, 1200)
Tenden <- matrix(data = c(Sim, Nao), 
                 ncol = 4, 
                 nrow = 2, 
                 byrow = TRUE, 
                 dimnames = list(c("Sim", "Não"), 
                                 c("Alta", "Média", 
                                   "Baixa", "Total")))

Tenden <- rbind(Tenden, colSums(Tenden[,1:4]))
row.names(Tenden)[3] <- "Total"
#Tabela
kable(Tenden)
Alta Média Baixa Total
Sim 200 220 380 800
Não 200 280 720 1200
Total 400 500 1100 2000
Proporções em relação às colunas:
Prop_Tenden <- matrix(data = c(Tenden[1,]/Tenden[3,], 
                               Tenden[2,]/Tenden[3,],
                               Tenden[3,]/Tenden[3,]), 
                      ncol = 4, 
                      nrow = 3, 
                      byrow = TRUE, 
                      dimnames = list(c("Sim", "Não", "Total"), 
                                      c("Alta", "Média", 
                                        "Baixa", "Total")))

kable(Prop_Tenden, format = "markdown", align = 'c')
Alta Média Baixa Total
Sim 0.5 0.44 0.3454545 0.4
Não 0.5 0.56 0.6545455 0.6
Total 1.0 1.00 1.0000000 1.0
#Resposta
  • Não. Percebemos que as respostas da classe “Alta” até se distribuem igualmente, mas as outras classes não reproduzem esse comportamento. Portanto, as respostas afirmativas e negativas se distribuem de forma desigual.
Usamos o \(\chi^2\) como medida quantificadora:

\[\chi^2 = \sum{\dfrac{(o_i-e_i)^2}{e_i}}\]

chisq.test(Tenden)
## 
##  Pearson's Chi-squared test
## 
## data:  Tenden
## X-squared = 33.636, df = 6, p-value = 7.907e-06
Obtivemos um valor do \(\chi^2\) de \(33,636\), o que nos indica que sim, há dependência entre os dois fatores.

  • Em relação ao resultado da tabela original, dessa vez obtivemos um \(\chi^2\) de \(15,438\), o que quer dizer que a dependência entre os fatores diminuiu bastante.
#Tenden
N_Tenden <- Tenden
N_Tenden[1:2,1] <- c(160,240)
#Nova tabela da tendência:
kable(N_Tenden)
Alta Média Baixa Total
Sim 160 220 380 800
Não 240 280 720 1200
Total 400 500 1100 2000
chisq.test(N_Tenden)
## 
##  Pearson's Chi-squared test
## 
## data:  N_Tenden
## X-squared = 15.438, df = 6, p-value = 0.01711

Questão 29

kable(Salario, format = "markdown")
1 2 3 4 5 6 7 8 9 10
Homem (X) 10 10 10 15 15 15 15 20 20 20
Mulher (Y) 5 10 10 5 10 10 15 10 10 15
#O salário anual médio dos homens é a soma dos salários (que foi fornecido, igual a 150), 
#dividido pelo total de homens, 10. Média igual a:
150/10
## [1] 15
#O Desvio Padrão (Populacional):
sd(Salario[1,])*((length(Salario[1,])-1)/length(Salario[1,]))^(1/2)
## [1] 3.872983

#O salário anual médio das mulheres é a soma dos salários (que foi fornecido, igual a 100), 
#dividido pelo total de mulheres, 10. Média igual a:
100/10
## [1] 10
#O Desvio Padrão (Populacional):
sd(Salario[2,])*((length(Salario[2,])-1)/length(Salario[2,]))^(1/2)
## [1] 3.162278

ggplot(data = NULL, 
       aes(x = Salario[1,], 
           y = Salario[2,])) +
  geom_point(shape = 23, 
             size = 2.5, 
             fill = "maroon1") + 
  scale_y_continuous(limits = c(0,16), 
                     breaks = seq(0,16,2)) + 
  scale_x_continuous(limits = c(8,22), 
                     breaks = seq(8,22,2)) + 
  theme(panel.background = element_rect(fill = "white", 
                                        colour = "black"), 
        panel.grid.major.y = element_line(colour = "gray47", 
                                          linetype = "longdash")) + 
  labs(title = "Diagrama de Dispersão Sálarios", 
       x = "Homem (X)", 
       y = "Mulher (Y)")

# OBS.: para o cálculo da correlação, pode-se utilizar a função "cor()" do R base, 
#mas aqui ela vai ser feita de forma completa.
#Exemplo da função "cor()"
cor(Salario[1,], Salario[2,])
## [1] 0.4082483

\[corr(X,Y)=\dfrac{\sum{x_iy_i}-n\bar{x}\bar{y}}{\sqrt{\left( \sum{x_i^2} - n\bar{x}^2 \right) \cdot \left( \sum{y_i^2} - n\bar{y}^2 \right)}}.\]

Relembrando dos itens (a) e (b) que \(\bar{x}=15\) e \(\bar{y}=10\) e também dados que a questão nos forneceu:

Podemos calcular a Correlação \((X,Y)\)
# "n" igual ao total de homens e/ou mulheres:
length(Salario[1,])
## [1] 10
#   corr(X,Y):
(1550 - (10*15*10))/((2400-(10*15^2)) * (1100 - (10*10^2)))^(1/2)
## [1] 0.4082483

  • Para a média, fazemos a soma dos salarios de todos os casais e dividimos pelo total de casais:
#Salário médio familiar igual a:
Med_Fam <- sum(Salario)/length(Salario[2,])
Med_Fam
## [1] 25
  • Para a variância, fazemos a soma das distâncias ao quadrado de cada uma das observações à média (lembrando que, nesse caso, cada observação se refere à soma dos salários de cada casal) e dividimos pelo total de casais:
# Foi utilizado como numéro de observações o total de mulheres, que é igual ao total de 
#homens e, consequentemente, igual ao total de casais.

# Variância do salário familiar igual a:
sum((colSums(Salario) - Med_Fam)^2)/ length(Salario[2,])
## [1] 35

  • Para podermos calcular a nova média, calculamos o novo salário dos homens e das mulheres após o desconto, e só assim foi tirada a média:
#Salário médio familiar, após o desconto, igual a:
Med_Descon <- ((sum(Salario[1,]*0.92)) + (sum(Salario[2,]*0.94))) /length(Salario[2,])
Med_Descon
## [1] 23.2
  • Para a variância, fazemos a soma das distâncias ao quadrado de cada uma das observações à média (nesse caso, cada observação se refere à soma dos salários de cada casal feita após serem descontados os valores de \(8\%\) e \(6\%\)) e dividimos pelo total de casais:
# Variância do salário familiar, após o desconto, igual a:
sum(((Salario[1,]*0.92) + (Salario[2,]*0.94) - Med_Descon)^2)/ length(Salario[1,])
## [1] 30.18

Questão 30

#Departamento de Vendas
kable(Dep_Ven, format = "markdown", align = 'crrcrc')
Vendedor T E G V Z
1 8 5 Bom 54 Norte
2 9 2 Bom 50 Sul
3 7 2 Mau 48 Sul
4 8 1 Mau 32 Oeste
5 6 4 Bom 30 Sul
6 8 4 Bom 30 Oeste
7 5 3 Bom 29 Norte
8 5 3 Bom 27 Norte
9 6 1 Mau 24 Oeste
10 7 3 Mau 24 Oeste
11 4 4 Bom 24 Sul
12 7 2 Mau 23 Norte
13 3 3 Mau 21 Sul
14 5 1 Mau 21 Oeste
15 3 2 Bom 16 Norte
Histograma:
ggplot(data = Dep_Ven, 
       aes(x = V)) + 
  geom_histogram(col = "mediumspringgreen", 
                 fill = "magenta1", 
                 breaks = seq(15,55,10)) + 
  scale_x_continuous(breaks = seq(15,55,10)) + 
  theme_classic() + 
  labs(title = "Histograma para a Variável V: vendas", 
       x = "Vendas", 
       y = "Frequência")

#Média:
Med_Ger <- mean(Dep_Ven$V)
Med_Ger
## [1] 30.2
#Variância (Populacional):
Varian <- var(Dep_Ven$V)*((length(Dep_Ven$V)-1)/length(Dep_Ven$V))
Varian
## [1] 121.8933
#Vamos calcular se algum valor fica acima de dois desvios padrões superior à media geral:
Dep_Ven$V[Dep_Ven$V>Med_Ger + 2*(Varian^(1/2))]
## [1] 54
#Como obtivemos apenas um valor, então temos somente um vendedor excepcional, 
#que é o vendedor número 1, como  se pode coomprovar:
Dep_Ven$Vendedor[Dep_Ven$V>Med_Ger + 2*(Varian^(1/2))]
## [1] 1

  • Vamos primeiramente calcular o 1º quartil, isto é, \(q(0,25)\):
quantile(Dep_Ven$V, probs = 0.25)
##  25% 
## 23.5
  • Como o \(q(0,25) = 23,5\), chegamos à conclusão de que um vendedor tem que realizar um mínimo de \(24 \hspace{3mm} vendas\) para não ser transferido.

  • Pode-se perceber, a partir da análise dos Box Plots, que as distribuições das diferentes zonas de venda não são semelhantes e, portanto, o argumento dos vendedores é cabível, pois, tendo em vista a diferença entre os gráficos, esse critério não é justo.
ggplot(data = Dep_Ven, 
       aes(x = Z, 
           y = V)) + 
  geom_boxplot(col = "steelblue",
               fill = "olivedrab1", 
               outlier.shape = 8, 
               outlier.colour = "red", 
               outlier.size = 2) + 
  theme_classic() + 
  labs(title = "Box Plots das Vendas por Zona", 
       x = "Zona", 
       y = "Total de Vendas")

Levando em consideração que a variável \(G: conceito \hspace{3mm} do \hspace{3mm} gerente\) é baseada nas variáveis \(T: teste\) e \(E: experiência\), vamos procurar alguma relação de dependência nas variáveis \(T\) e \(E\) que, de alguma forma, reflita na variável \(V: vendas\). Pensando nisso, vamos realizar o cálculo da correlação.
Vamos recordar os dados que a questão nos forneceu, eles serão bem úteis para realizar os calculos.

  • Primeiramente, calculando a correlação entre \(T\) e \(V\):

\[corr(T,V)=\dfrac{\sum{t_iv_i}-n\bar{t}\bar{v}}{\sqrt{\left( \sum{t_i^2} - n\bar{t}^2 \right) \cdot \left( \sum{v_i^2} - n\bar{v}^2 \right)}}.\]

# Temos que a correlação entre o Teste e o Número de vendas é:
(2959 - (15*(91/15)*(453/15))) / (((601 - (15*((91/15)^2)))*(15509 - 15*((453/15)^2)))^(1/2))
## [1] 0.704746
  • Depois, calculamos a correlação entre \(E\) e \(V\):

\[corr(E,V)=\dfrac{\sum{e_iv_i}-n\bar{e}\bar{v}}{\sqrt{\left( \sum{e_i^2} - n\bar{e}^2 \right) \cdot \left( \sum{v_i^2} - n\bar{v}^2 \right)}}.\]

# Temos que a correlação entre os Anos de Experiência e o Número de vendas é:
(1260 - (15*(40/15)*(453/15))) / (((128 - (15*((40/15)^2)))*(15509 - (15*((453/15)^2))))^(1/2))
## [1] 0.2632924
# Conclusão
  • Dessa forma, a partir das correlações entre as váriaveis, com \(0,2632924 < 0,704746\) \(\Longleftrightarrow\) \(Experiência < Teste\), podemos afirmar que a Variável \(T: teste\) exerce mais influência na variável \(V: vendas\), ou seja, no número de vendas do vendedor. Desse modo, a variável \(T: teste\) é a mais importante para julgar um futuro candidato ao emprego.

  • Vamos usar como medida de associação, o \(\chi^2\):
chisq.test(Dep_Ven$G, Dep_Ven$Z)
## 
##  Pearson's Chi-squared test
## 
## data:  Dep_Ven$G and Dep_Ven$Z
## X-squared = 3.75, df = 2, p-value = 0.1534
  • Obtivemos um \(\chi^2\) de \(\approx 3,75\), o que nos diz que há pouca relação entre as variáveis \(G: conceito \hspace{3mm} do \hspace{3mm} gerente\) e \(Z: zona\). Essa baixa relação pode significar que o gerente não leva em consideração a sua avaliação do vendedor no momento de designá-lo à uma zona qualquer.

Para medir o grau, vamos utilizar o cálculo do \(\chi^2\).
  • Para as Variáveis \(G: conceito \hspace{3mm} do \hspace{3mm} gerente\) e \(T: teste\), temos uma baixa associação, com \(\chi^2 \approx 5.625\).
chisq.test(Dep_Ven$G, Dep_Ven$T)
## 
##  Pearson's Chi-squared test
## 
## data:  Dep_Ven$G and Dep_Ven$T
## X-squared = 5.625, df = 6, p-value = 0.4665
  • Já para as Variáveis \(Z: zona\) e \(V: vendas\) obtivemos um \(\chi^2 \approx 20\), o que nos dá um grau considerável de associação entre esses dois fatores. O que corrobora com a revolta dos vendedores observada no \(item \hspace{3mm} (d)\).
chisq.test(Dep_Ven$Z, Dep_Ven$V)
## 
##  Pearson's Chi-squared test
## 
## data:  Dep_Ven$Z and Dep_Ven$V
## X-squared = 20, df = 20, p-value = 0.4579